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كشف التشوهات 


المدف في الكشف عن التشوهات هو إيجاد كائنات تختلف عن معظم الكائنات الأخرى. تُعرف 
الكائنات المشوهة (anomalous)‏ عادة بالشواذ (sءeنا٤سه)‏ باعتبار أنها کی رسم بياني مبعثر 
للبيانات) تتوضع ا عن نقاط بيانات أخرى. يعرف كشف التشوّهات أيضاً بكشف الاغحراف 
)deviation detect)‏ لأن للكائنات المشوهة قم سمات تنحرف بشكل هام عن القيم المتوقعة أو 
المعتادة للسمات» أو التنقيب عن الاستشناءات (عدن«نص «٠ناممء×ه)»‏ لأن التشوهات تكون 
استشنائية نو غا ما. سنستخدم في هذا الفصل المصطلحين تشوه (1yة٣٥«ة)‏ أو شذوذ (٣ءiااه).‏ 
هناك أشكال متنوعة من طرق اكتشاف التشوهات من عدة مجالات» با في ذلك الإحصاء 
والتعلم الالئ (earningا )machine‏ والتنقیب عن البیانات. بحاول الجميع تصوير فكرة أن 
كائنات البيانات المشوّهة (usهاه0«ة)‏ هي غير اعتيادية أو نها بطريقة ما غير متسقة مع 
الكائنات الأخرى. وعلى الرغم من أن الكائنات أو الأحداث غير الاعتيادية هي (بحسب 
ی ا ا » فإن هذا لا يعني أنها لا تحدث بشكل متكرر على الإطلاق. فمثلاء بمکن 
أن يقع حدث هو ٽي الأصل "واحد من أصل ألف" ملايين المرات عند دراسة بلايين الأحداث. 
إن معظم الأحداث والكائنات في العالم الفعلي»› أو امجتمع البشري» أو نطاق مجموعات 
البيانات» هى بالتعريف مألوفة أو اعتيادية. إلا أننا على أية حال ندرك إمكانية الحصول على 
الكائنات E‏ أو غير الاعتيادية. وهذا يشمل بشكل استثنائي الفصول الجافة أو الماطرة» 
أو الرياضيين المشهورين» أو قيمة سمة تكون أصغر بكثير أو أكبر بكثير من كافة القيم الأخرى. 
ينشأً اهتمامنا بالأحداث والكائنات الشاذة من حقيقة أنها تكون غالبا ذات أهمية غير عادية : 
ا لجفاف الذي يهدد المحاصيل› ومهارة استثنائية لرياضي قد تقود إلى تحقيق الفوز» والقيم الشاذة في 
نتائج تجريبية قد تشير إلى إما وجود مشكلة في التجربة أو إلى ظاهرة جديدة تجب دراستها. 
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توضح الأمثلة التالية تطبيقات تكون فيها التشوهات مهمة. 

6 اكتشاف الاحتيال (١٥ااءمام2‏ 4١uه۴۲):‏ حيث يكون سلول الشراء لشخص سرق بطاقة 
اعتماد مختلفاً نوعاً ما عن سلوك مالكها الأصلي. تحاول شركات بطاقات الاعتماد كشف 
السرقة بالبحث عن أغاط شراء تيز السرقة أو بملاحظة تغير عن السلوك الاعتيادي. 
تستخدم طرق ماثلة من أجل أنواع أخرى من الاحتيال. 

الكشف عن التطغل (١٥ن†ءمtمD‏ onا1ntrus):‏ لسوء الحظ فان من المعتاد وجود 
محاولات اختراق لأنظمة ا لحاسب وشبكات الحواسب. ففي حين أن بعض هذه 
الاختراقات تكون واضحة» كتلك المصممة لتعطيل أو إحداث مشكلات في الحواسب»› 
فإن من الصعب اكتشاف محاولات اختراق أخرى» كتلك المصممة لجمع معلومات بشكل 
سري. يمكن اكتشاف العديد من حاولات الاختراق هذه فقط براقبة الأنظمة والشبكات 

٠‏ اضطراب النظام البيئي (aceطrںtءا٥‏ #۳اءروهءع): هناك قي الواقع أحداث نموذجية 
يمكن أن يكون لہا تأثير هام على البشر. تعتبر الأعاصير والفيضانات والجفاف والتيارات 
الحرارية والنيران أمثلة عن هذه الأحداث. والغاية غالبا هي التنبؤ بأرجحية وقوع هذه 
الجوادث وبمسبباتها. 

ه الصحة العامة (۸٤ادم١‏ icاطس٥):‏ تقدم المستشفيات والعيادات العامة في الكثير من 
الدول تقارير إحصائية مختلفة إلى مؤسسات وطنية لإجراء تحاليل إضافية عليها. فمثلاء إذا 
تم تلقيح جميع الأطفال في مدينة ضد مرض معين (الحصبة مثلا)ء فإن وقوع بعض 
الإصابات في مستشفيات مختلفة في المدينة هو حدث شاذ قد يشير إلى مشكلة قي برامج 
التلقيح في المدينة. 

الدواء (#”iءالهM):‏ فمن أجل مريض معين» يكن أن تشير الأعراض أو نتائج 
الفحوصات غير الاعتيادية إلى احتمال وجود مشاكل صحية. قد يعتمد كون نتيجة فحص 
شاذة على أمور أخرى تتعلق بالمريض» كالعمر والجنس. علاوة على ذلك فإن تصنيف 
نتيجة على أنها شاذة أم لا يكون عرضة لدفع تمن مقابل (اختبارات إضافية غير ضرورية 
إذا كان المريض معافى وأذى محتمل للمريض إذا ت ركت حالة بدون تشخيص وعلاج). 
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على الرغم من أنه تم مؤخرا توجيه الاهتمام نحو الكشف عن التشوه من خلال تطبيقات ع 
فيها التركيز على التشوهات» فإنه قد تم على مر الوقت إظهار اكتشاف (وإزالة) التشوه كتقنية 
لتحسين تحليل كائنات البيانات العادية. فمثلاء كن أن جرت وجرد اء فة المد تا 
المتوسط )٠2٠١١(‏ والانحراف المعياري مجموعة قيم أو تعديل مجموعة العناقيد الناتجة عن خوارزمية 
عنقدة. ولذلك فإن الكشف عن (وإزالة) التشوهات هو غالبا جزء من المعالجة المسبقة للبيانات. 


سنركز في هذا الفصل على الكشف عن التشوهات. وسنقدم بعد بضعة خطوات تهيدية شرحا مفصلا 
لبعض الطرق الہامة للكشف عن التشوهات» مع توضيحها من خلال أمثلة عن تقنيات معينة. 


0 خطوات تمهيدية 
سنقدم بعض المعلومات الأولية قبل أن نبداً بمناقشة خوارزميات محددة للكشف عن 
الاك وکل خاس ف (0 متكت مات ارات ي سدس الطرق 
الخ كفت عن اشرات و (6 ستجدة الفروقات ها بن الطرق اساد إلى ما إذا 
كانت تستخدم معلومات تسمية الصنف (1ء0ه1 sوهاء)»‏ و (4) سنتحدث عن مسائل شائعة 
تتعلق بتقنيات الكشف عن التشوهات. 


1.1.10 أسباب الحصول على تشو 

فيما يلي بعض الأسباب الشائعة للحصول على تشوهات وهي : بيانات من أصناف مختلفة› 
الاختلاف الطبيعي » وأخطاء قياس وجمح البيانات. 

بيانات من أصناف مختلغة. قد يکون کائن ختلفا عن كائنات أخرى (أي أنه تشوه) لأنه من 
ys E‏ 
بطاقات الائتمان بشكل شرعي. تعتبر معظم الأمثلة الواردة في بداية هذا الفصل (وبالتحديد 
الاحتيال والقطضل وي الأمراض والنتائج غير المعتادة امجرت أمثلة عن التشو ت 
التي تمثل صنفاً مختلفا من الكائنات. ا 
خلال الكشف عن التشوهات في مجال التنقيب عن البيانات. 

يتم التعبير فكرة كون الكائنات المشوهة تأتي من مصدر ( صنف) بختلف عن معظم كائنات 
البيانات من خلال تعریف عام للشواذ وضع .Douglas Hawkins‏ 
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التعريف 1.10 (تعريف ك١‏ )سه١‏ للشواذ). المشاهدة الشاذة هى مشاهدة تختلف کثیرا عن 
المشاهدات الأخرى بشكل يدعو إلى الشك بأنه قد تم توليدها من خلال آلية ختلفة. 

الاختلاف الطبيعي (١٥ااهآاج۷‏ اaاuاةN).‏ يمكن نمذجة الكثير من مجموعات البيانات من 
خلال توزيعات إحصائية » كالتوزيع الطبيعي (الخوصي)› حيث يتناقص احتمال كائن بيانات 
بشكل سريع بازدياد بعد الكائن عن مركز التوزيع. يكن التعبير عن ذلك بشكل تلف بأن 
معظم الکاثنات تکون قرب مركز (کائن وسطي) وتكون آرجحية أن یکون کائن مختلغاً بشکل 
هام عن الكائن الوسطي هذا صغيرة . فمثلا یکرت شن طریل نفل مهای شاد اذا 
اعتبرنا آنه من صنف مختلف من الكائنات» se‏ 
(الطول) المسيطرة وفقاً لكافة الكائنات. إن التشوهات التي تمثل أشكالاً مختلفة مفرطة أو غير 
واردة تكون غالبا مهمة. 

أخطاء قياس وحمهچ البيانات. تعتبر أخطاء عملية جمع البيانات أو القياس ت آخر 
للتشوهات. فمثلا» يكن تسجيل قياس بشكل خاطئ بسبب خطأ بشري» أو مشكلة في جهاز 
القياس» أو وجود تشويش (١ء1ه1).‏ الغاية هى التخلص من هذه التشوهات» باعتبار أنها 
ا و ی جود ات 0 9 
المعالجة السابقة للبيانات (وخاصة تصفية (ع«نصةء1) البيانات) على إزالة هذا النوع من التشوهات. 
E‏ 
نذكرها. يمكن في الواقع أن تکون للتشوهات في مجموعة البيانات مصادر مختلفة» ويكون 
التب ادي إن و وة ير روت غالبا. تركز تقنيات الكشف عن التشوهات على 
إجاد کائنات تختلف جوهريا عن معظم الكائنات الأخرى» ولا تتأثر التقنيات نفسها مصدر 
التشوه. وبالتالي فإن سبب التشوه کو ا ا و ا و د 


0 طرق الكشف عن التشوهات 

نقدم هتا شرحاً لبعض تقنيات الكشف عن التشوهات وتعريفات التشوه المقترنة بهاء هناك 
بعض التداخل بين هذه التقنيات »› وسيتم قي التمرين 1 سبر العلاقات فيما بينها. 

التقنيات التي تستند إلى النموذج .(Model-Based)‏ تقوم کثیر من تقنیات الكشف عن 
التشوه أولاً ببناء نموذج للبيانات. التشوهات هي كائنات لا تتلاءم مع النموذج بشكل جيد. 
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يمكن على سبيل المثال إنشاء نموذج لتوزيع البيانات من خلال استخدام البيانات لتقدير وسطاء 
amet)‏ rم)‏ التوزیع ا یکون کائن غير متلائم مع والنموذج بشکل جید (آي انه 
تشوه) إذا لم O E‏ وفق التوزيع. فإذا كان النموذج مجموعة من العناقيد» فإن 
التشوه هو كائن لا ينتمي بقوة اف أي عنقود. . وعند استخدام نموذج |>دlر (regression model)‏ « 
فان التشوه هو کائن یکون ا کاک کو .(predicted)‏ 

با أنه يمكن إظهار الكائنات المشوهة والطبيعية على أنها تحدد صنفين متمايزين» فإن من 
الممكن استخدام تقنيات التصنيف لبناء نماذج لہذين الصنفين. يمكن بالطبع استخدام تقنيات 
التصنيف فقط إذا توفرت تسميات الأصناف من أجل بعض الكائنات بحيث يمكن بناء مجموعة 
تدريب (اءء و«نمنه»). كما أن التشوهات نادرة نسبياء ويجب أخذ هذا الأمر بعين الاعتبار 
عند اختيار كل من تقنية التصنيف والمقاييس التي سيتم استخدامها للتقييم. (راجع المقطع 7.5). 

من الصعب في بعض الحالات بناء نغوذج » كأن يكون هذا لأن التوزيع الإحصائي للبيانات 
غير معروف أو لأنه لا تتوفر بيانات تدريب. يمكن في هذه الحالات استخدام تقنيات لا تتطلب 
بناء موذج » كتلك التي سنتحدث عنها فيما يلي. 

التقنيات التي تستند إلى القرابة (dعasة8-۴r0ximity).‏ من الممكن ا تعریف مقیاس 
قرابة بين الكائنات» ويستند عدد من طرق الكشف عن التشوه إلى قيم القرابة. الكائنات 
المشوهة هي تلك التي تكون متمايزة عن معظم الكائنات الأخرى. و 
هذا المجال إلى المسافات ويشار إليها على أنها تقنيات كشف الشواذ استنادا إلى المسافة. يممكن 
الك ا ع اراد مهام او اة ع کروم اهک ع خن الات داد 
بياني مبعثر ثنائي أو ثلاثي الأبعادء وذلك بالبحث عن نقاط منفصلة عن معظم النقاط الأخرى. 
التقنيات التي تستند إلى الكثافة (d١عءة8-,†آئ"06).‏ من الممكن حساب تقديرات لكثافة 
الكائنات بشكل مباشر a‏ وخاصة إذا ا قرابة بين الكائنات. تكون الكائنات 
التي توجد في مناطق منخفضة الكثافة a EE er EE a‏ 
تفرض طريقة أكثر تعقيدا حقيقة أنه هكن أن تكون مجموعات البيانات مناطق ذات كثافات 
ختلفة بشكل كبير»› وقصتف تقطة على أنها شاذة فقط إذا كانت لبا كنافة علية تون آقل 
بشکل هام من معظم جیرانها. 
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0 استخدام تسميات الأصناف 

هناك ثلاثة طرق أساسية لكشف التشوهات : غير المراقبة (dءءن#۲مدو«صن)ء‏ والمراقبة» وشبه 

المراقبة (لءءاvءهم-ن«ء).‏ الفارق الأساسي هو إلى أي حد تتوفر تسميات الأصناف (تشوه 

(21y٣0ه)‏ أو طبيعي ))1٥۳۳۵1(‏ من أجل بعض البيانات على الأقل. 

الكکشف المراقب عن iillوlaت „(Supervised anomaly detection)‏ تتطلب تقنیات 
الكشف ا عن التشوهات وجود مجموعة تدريب تتضمن كائنات مشوهة 
وطبيعية og yS‏ وکما ذکرنا 
اا فإن تقنيات التصنيف التي تعالج مشكلة ما د تعر ف بالصنف النادر (sهاء‏ ۵۲۲]) تکون 
مناسبة بشكل امان التوهات ادر ا مقارنة بالكائنات الطبيعية. راجع 


المقطع 1.5. 


الكشف غير المراقب عن llتiغlkgت yJ „(Unsupervised anomaly detection)‏ تتوفر 
في الكثير من الحالات العملية تسميات الأصناف. والغاية في حالة كهذه هي إسناد 
درجات (۵إc0)‏ (أو تسمیة) إلی کل مثیل (٥a٤ہ1)‏ یعکس إلى آي درجة يكون المثيل 
تشوها. لاحظ أن وجود كثير من التشوهات التي تكون مشابهة لبعضها البعض قد 
يدي إلى تسميتها كلها على أنها طبيعية أو يكون لہا و شذوذ منخفضة 
.(low outlier score)‏ وبالتالي فانه لکي يكون الكشف غير ل عن التشوهات 
ا بجحب أن تكون التشوهات متمايزة عن بعضها البعض» إضافة إلى تمايزها عن 
الكائنات الطبيعية. 

الکشف شبه المراقب عنj‏ iillوlaتٽ .(Semi-supervised anomaly detection)‏ 
ری انات یریت اا انات ا 0 و 
معلومات عن الكائنات المشوهة. الفاية ق الرطح ب الراب هى غاد ي و أو 
درجة التشوه من أجل مجموعة من الكائنات المعطاة باستخدام معلومات عن الكائنات 
الطبيعية المسمًاة. لاحظ أنه في هذه الحالة يكون وجود كثير من الكائنات الشاذة المرتبطة 
ببعضها في مجموعة الكائنات التي سيتم إعطاؤها درجة شذوذ لا يؤثر على تقييم 
الشواذ. قد يكون من الصعب في بعض الحالات العملية إبجاد مجموعة صغيرة من 
الكائنات الطبيعية التي نمثل المجموعة. 
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يمكن استخدام كافة مخططات الكشف عن التشوهات المشروحة في هذا الفصل في النمط 
امراقب أو غير المراقب. كما أن المخططات الراقبة تقائل فى جوهرها خططات التصنيف من 
أجل الأصناف النادرة (sعهاء‏ ١ه])‏ المشروحة قي المقطع 15 


0 مسائل هامة 

هناك تشكيلة واسعة من المسائل الہامة التي تجب معالجتها عند التعامل مع التشوهات. 

عدد السمات المستخدمة لتعريف تشوه. الول رل ا إ5 کا وها إلى سمة 
واحدة هي سؤال عن ما اذا كانت قي قيمة تلك السمة للكائن شاذة. وما أنه قد تكون للكائن عدة 
سمات» فقد تكون لبعض هذه E‏ فیما تکون لسماته الأخرى قيم عادية. 
علاوة على ذلك فإن الكائن ¿ قد یکون تشوها حتی لو لم تكن أي من قيم سماته شاذة على 
انفراد. من الشائع على سبيل الال أن يكون هناك أشخاص طولمم قدمَين (أطفال) أو وزنهم 
0 باوند» ولکن من غير الشائع أن یکون هناك شخص طوله قدمان ووزنه 300 باوند. مچب 
أن يحدد التعريف العام للتشوه كيف سيتم استخدام قيم سمات متعددة لتحدید ما إذا كان 
الكائن تشوها أم لا. وهذه مسألة هامة بشكل خاص عندما تكون أبعاد البيانات عالية. 
المنظور الشامل في مغابل المحلي. قد يبدو كائن غير اعتيادي بالنسبة لكافة الكائنات› 
ولكنه ليس كذلك بالنسبة لكائنات في جواره المحلي. يمكن على سبيل المثال أن يكون شخص 
طوله 6 أقدام و 5 إنشات طويلا بشكل غير معتاد بالنسبة للمجتمع الإحصائي الكلي» ولكن 
ليس بالنسبة للاعبي كرة السلة امحترفين. 

إلى أي درحة تكون نقطة تشوها. يتم تقييم ما إذا كان كائن تشوها بواسطة بعض التقنيات 
بطريقة ثنائية : الكائن إما تشوه أو ليس كذلك. لا يعكس هذا عادة الواقع الكامن بأن بعض 
الكائنات مفرطة في التشوه مقارنة ببعضها الآخر. ويذلك فإن من الضروري أن يكون 
لدينا تقييم لدرجة كون كائن هو تشوه. يعرف هذا التقييم بدرجات التشوه أو الشذوذ 
.(anomaly or outlier score)‏ 

تحدید تشوه واحد في کل مرة أم تحديد عدة تشوهات دفعة واحدة. ج ق بعض 


التقنيات إزالة التشوهات واحدا في كل مرةء ا أنه يتم تحديد المثيل الأكثر تشوها وإزالته ثم 
يتم تكرار العملية. أما في تقنيات أخرى فيتم تحديد تشكيلة من التشوهات معا. غالبا ما تکون 
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التقنيات التي تحاول تحديد تشوه في كل مرة عرضة لمشكلة تعرف بالحجب (ع«i)وهه)»‏ حيث 
أن وجود ا چ زج الكل. ومن ناحية أخرى فإن التقنيات التى تكشف عدة 
كائنات شاذة قد تواجه مشكلة الغمر (عدأمصهسء)» حیث یتم تصنيف کائنات طبيعة على 
أنها شواذ. أما في الطرق التي تستند إلى النموذج (4ءء4ط-اءلهه)» فإن هذه التأثيرات يمكن أن 
تحدث لأن التشوهات تحرف نموذج البيانات. 

التقييم. إذا توفرت تسميات الأصناف لتحديد البيانات المشوهة والطبيعية» فإن من الممكن 
تقييم فعالية خطط كشف التشوهات باستخدام مقاييس أداء التصنيف المشروحة في المقطع 7.5. 
ولكن با أن الصنف المشوه يكون في العادة أصغر بكثير من الصنف الطبيعي» فإن مقاييس 
مثل الاستدعاء (11دءإ) والتحقيق (٥نوiءءإم)‏ ومعدل اللاإيجابية |kضllة (false positive error)‏ 
ستكون أكثر ملاءمة من الدقة (وعهإuءءه).‏ أما إذا كانت تسميات الأصناف غير متوفرة» فإن 
من الممكن الحكم على فعالية الكشف عن الشواذ من خلال التحسن في النموذج بمجرد إزالة 
التشوهات. 

الفعالية. هناك فروقات هامة في الكلفة الحسابية للمخططات المختلفة للكشف عن التشوهات. 
يمكن أن تتطلب المخططات التي تستند إلى التصنيف a‏ لإنشاء نموذج ا 
E ES‏ ا ا و ا 
ويمكنها بعدها تحديد فئة كائن خلال زمن ثابت. التعقيد الزمنى للطرق التى تستند إلى القرابة 
هو ”(0)۳» حيث "٣‏ هو عدد الكائنات» لأن من E‏ 0 المعلومات التى 
تحتاجها فقط بحساب مصفوفة القرابة («اعاص باصا×٠م).‏ يكن تخفيض هذا التعقيد الزمني 
في حالات خاصة» كأن تكون البيانات ثنائية الأبعاد» وذلك باستخدام بنية بيانات 
وخوارزميات خاصة. سنتحدث في التمرين 3 عن التعقيد الزمني للطرق الأخرى. 


خريطة الطريق 
تشرح المقاطع الأربعة القادمة عدة فئات رئيسة لطرق الكشف عن التشو ت: الإحصائية› 
واستنادا إلى القرابة» واستنادا إلى الكثافة› واستنادا إلى العناقيد. سندرس تقنية واحدة أو أكثر 


ضمن كل من هذه الفئات. سنتبع في هذه المقاطع الخبرة ونستخدم المصطلح شاذ بدلا من 


دسوه. 
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0 الطرن الإحصائية 

الطرق الإحصائية هي طرق تستند إلى النموذج» أي أنه يتم بناء نموذج للبيانات» ثم يتم تقييم 
الكائنات وفقا لمدى ملاءمتها للنموذج. تستند معظم الطرق الإحصائية للكشف عن الشواذ إلى 
بناء نموذج توزيع احتمالي ودراسة أرجحية خضوع الكائنات لذلك النموذج. يعبر التعريف 
0 عن هذه الفكرة. 

التعريف 2.10 (التعريف الإحصائي للكائن الشاذ). الكائن الشاذ هو كائن ذو احتمال 
ضعيف بالنسبة لنموذج التوزيع الاحتمالي للبيانات. 

يتم إنشاء نموذج توزيع احتمالي من البيانات وذلك بتقدير وسطاء توزيع يعرف المستخدم. فإذا 
افترضنا أن البيانات خاضعة لتوزيع غوصي» فإن من الممكن تقدير المتوسط (۸«ء4) 
والانحراف المعياري لمذا التوزيع بحساب متوسط والانحراف المعياري للبيانات. يمكن بعدها 
تقدير احتمال كل كائن بخضع لذا التوزيع. 

غم اشتقاق تشكيلة واسعة من الاختبارات الإحصائية استنادا إلى التعريف 2.10 بهدف الكشف 
عن الشواذ» أو ما يعرف بالمشاهدات المتنافرö (discordant observations)‏ ق أدبيات الإحصاء. 
تكون كثير من اختبارات التنافر هذه متخصصة وتفترض وجود مستوى معين من المعرفة 
الإحصائية تتجاوز نطاق هذا الكتاب. ولمذا فإننا سنوضح الأفكار الأساسية مع بعض الأمثلة 
فقط » ونترك الباقي للقارئ. 

مسائل هامة 

فيما يلي بعض المسائل الہامة التي تواجه هذه الطريقة في كشف الشواذ : 

تحديد توزيع مجموعة بيانات. ففي حين يمكن توصيف الكثير من أنواع البيانات من خلال 
عدد صغير من التوزيعات الشائعة» کالتوزیع الغوصي (Gaussian)‏ « وتوزیع بواسون 
(Poisson)‏ » أو ثنائي ا لحد )binomin1(‏ › فان من الشائع نسبيا أن تكون هناك مجموعات 
بيانات تخضع لتوزيعات غير معيارية. فإذا تم بالطبع اختيار نغوذج خاطئ فإن من الممكن أن يتم 
بشكل خاطئ تعريف كائن على أنه شاذ. يكن على سبيل المغال أن تتم نمذجة البيانات على أنها 
تأتي من توزيع غوصي » ولكن من ال ممكن أن تكون في الواقع من توزيع يكون هناك احتمال أعلى 
(مقارنة بالتوزيع الغوصي) أن توجد فيه قيم بعيدة جدا عن المتوسط. من الشائع عمليا وجود 
توزيعات إحصائية من هذا النوع وهي تعر ف بالتوزيعات تقيلة .(heavy-tailed distributions) Jii‏ 
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عدد السمات المستخدمة. يتم تطبيق معظم تقنيات لكف ع لرا اجا غل اة 
واحدة» ولكنه قد تم تعريف بعض التقنيات من أجل بيانات متعددة المتحولات (عاهءة۷نااuه).‏ 
خليط من التوزيعات. E‏ البيانات كخليط من التوزيعات» ويمكن تطوير غططات 
ا استنادا إلى غاذج کهذه. وعلی الرغم من آنهاٍ أكثر قوة» فان هذه النماذج 
تکون أكثر E‏ إذ آنها تكون صعبة الفهم والاستخدام معا من الضروري على سبيل 
المغال تعریف التوزيعات قبل أن نتمکن من تصنیف الكائنات على انها شواد. راجع شرح 
النماذج المختلطة وخوارزمية E۷‏ الواردة في المقطع 2.2.9. 


0 الكشف عن الشواذ يف توزيعات طبيعية وحيدة المتخير 


يعتبر التوزيع الغوصي (الطبيعي) أحد أكثر التوزيعات استخداما في الإحصاء» وسنستخدمه 
لشرح طريقة بسيطة للكشف عن الشواذ إحصائيا. يمتلك هذا التوزيع وسيطين هما 1ر 
(المتوسط) و ٠‏ (الانحراف المعياري)» ويتم تمثيله باستخدام الصيغة .۸)«٥(‏ يعرض الشكل 
0 تابع الكثافة د (1 ,۸)0. 


0.4 


الكتافة الاحتمالية 


الشكل 10.1 تابع الكثافة الاحتمالية لتوزيع غوصي بمتوسط 0 وانحراف معياري 1 
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هناك فرصة ضئيلة أن يقع كائن (قيمة) من التوزيع (1 ٧)0,‏ في زيلي (1ها) التوزيع. هناك مثلا 
احتمال قدره 0.0027 أن يقع كائن بعد المنطقة المركزية بين 3+ من الانحرافات المعيارية. وبشكل 
أعم نقول أنه إذا كان » ثابت و × هي قيمة سمة الكائن» فإن احتمال أن يكون » < |»| يتناقص 
بشکل سریع عندما تزداد فيمة الثابت ». لتکن (ء < |×|)ظ٥۲م‏ = ». يعرض الجدول 1.10 بعض 
الأمثلة عن قيم ء وقيم » المقابلة لها عندما يكون التوزيع هو (۸)0,1. لاحظ أن القيمة التي 
تكون أكبر من 4 انحرافات معيارية من المتوسط يكون احتمال وقوعها واحد في العشرة آلاف. 


الجدول 1.10 أمتلة عن أزواج ره ج). حيث ل < |×|)06/م = »» من أجل توزيع غوصي بمتوسط 0 
وانحراق معياري 1 


»من أجل )۸0,1 c‏ 
0.313 1.00 
0.136 1.50 
0.0455 2.00 
0.0124 2.50 
0.0027 3.00 
0.0005 3.50 
0.0001 4.00 


وبا أن بعد القيمة » هن مركز التوزيع N)0,1(‏ يتعلق مباشرة باحتمال القيمة» فمن الممكن 
استخدامه کأساس لاختبار ما إذا كان كائن (قيمة) شاذا أم لا كما سنبين في التعريف 3.10. 
التعريف 3.10 (الكائن الشاذ من أحل سمة وحيدة تخضع للتوزيع الغوصي (۸0,1). 
يكون كائن له قيمة سمة × تخضع للتوزيع الغوصي بمتوسط 0 وانحراف معياري 1 شاذا إذا كانت : 
|x| > c )1.10(‏ 

حیث » ثابت یتم اختیاره بحیث یکون ے = (ء < |×)ط٥۲.‏ 

من الضروري لاستخدام هذا التعريف تحديد قيمة ل». فمن منظور كون القيم (الكائنات) غير 
الاعتيادية تشير إلى قيمة من توزيع ختلف»› فإن » تشير إلى احتمال أن نقوم بشكل خاطئ 
بتصنيف قيمة من التوزيع المعطى على أنها شاذة. أما من منظور كون القيمة الشاذة هي قيمة 
نادرة من التوزيع ›N)0,1(‏ فإن » تحدد درجة الندرة. 
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إذا كان توزيع سمة تتم دراستها (من أجل الكائنات الطبيعية) توزيع غوصي مبتوسط 1 
وانحراف معياري ٠‏ (أي أنه توزيع (۷)4)» فإننا سنحتاج لكي نتمكن من استخدام التعريف 
0 إلى تحوير (f0۲۳ء«ه۲))‏ السمة × لتصبح سمة جديدة »z‏ لما توزيع (0,1). وبشکل أدق 
فإن الطريقة هي وضع ٩‏ /0/-») = >. (تدعى < بقيمة أو درجات < (١إ0ءء .))z‏ وعلى أية حال 
a e a a‏ 
٫ئ.‏ يعمل هذا الأمر بشكل جيد في الحالة العملية عندما يكون عدد المشاهدات كبيراً. نلاحظ 
على أية حال أن توزيع < ليس فا (1 ,۸)0. سنتحدث عن إجرائية إحصائية أكثر تعقيدا 
(اختبار sااںا6)‏ قي التمرين 7. 


0 الكائنات الشاذة ق التوزيعات الطبيعية متعددة المتحولات 

سرغ من أجل القاهنات الغوصية متعددة المتحولات ا ا و ا ا 
أجل توزيع غوصي أحادي المتحول. n EE‏ 
احتمال منخفض بالنسبة للتوزيع المقدر للبيانات. علاوة على ذلك فإننا سنرغب بالحكم على 
هذا من خلال اختبار بسيط › > كأن يكون مثلا بعد النقطة عن مركز التوزيع. 

وبسبب الارتباط (۸هناهاء۲ءهه) بين المتحولات المختلفة (السمات)ء فإن التوزيع الطبيعي 
متعدد المتحولات لا يكون متناظراً (0۵1 1ا« صرء) بالنسبة لمر كزه. يعرض الشكل 2.10 الكثافة 
الاحتمالية لتوزيع غوصي متعدد المتحولات ثنائي الأبعاد له متوسط (0 ,0) ومصفوفة تباين 


: ھی‎ )covari ace 1٣4 ۲1×( مشترڭ‎ 


1.00 


2< ٠ 3.00 


فاذا کنا سنستخدم حد عتبة (۲۵1010ط)) بسيط لتحدید ما إذا کان کائن ا فاننا وه 
إلى مقياس مسافة يأخذ بعين الاعتبار شکل توزیع البيانات. تعتبر مسافة lia Mahalanobis‏ 
عن هذا المقياس. راجع المعادلة 14.2. تعطی المعادلة 2.10 مسافة isاممهاه1ةN‏ بين نقطة × وبين 
متوسط البيانات ×. 


mahalanobis(x,*) = (x-%)S 1 (x- x)" (2.10( 


حيث 8 هى مصفوفة التباين المشترك للبيانات. 
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الكثافة 5 4 3 2 1 0 1- 2- 3- 4- 
الاحتمالية 


الشكل 2.10 الكثافة الاحتمالية لتوزيع غوصي تم استخدامه لتوليد نقاط الشكل 3.10 


من السهل أن نبين أن مسافة كنطه«هاطة٧‏ بين نقطة وبين متوسط التوزيع المقابل ترتبط 
مباشرة باحتمال تلك النقطة. إن مسافة ونام ها1 تساوي لوغاريتم )1٥8(‏ الكثافة 
الاحتمالية للنقطة مضافا إليها ثابت. راجع التمرين 5. 

المثال 1.10 (الكائنات الشاذة في التوزيعات الطبيعية متعددة المتحولات). يعرض 
الشكل 3.10 مسافة كناهصهاهطة (من متوسط التوزيع) من أجل نقاط في مجموعة بيانات 
ثنائية الأبعاد. إن النقطتين (4,4-)۸ و (8)5,5 هما نقطتان شاذتان تمت إضافتهما إلى مجموعة 
البيانات» وقمنا بالإشارة إلى مسافة كاه«ة1ة1 لمما في الشكل. أما باقي نقاط مجموعة 
البيانات البالغ عددها 2000 نقطة فقد تم توليدها باستخدام التوزيع المستخدم في الشكل 2.10. 


إن لکل من ۸ و 8 مسافة كناممصهاهاة× كبيرة. وعلى أية حال» وبالرغم من أن ۸ أقرب لى 
ارك افر اله ج رة عط أسود عرضن عند ©0:0) :13 عرفا أفا اخ الممافة 
الإقليدية» فاإنها أبعد من 8 وفق مسافة كزا0م1aة M41‏ لأن مسافة sناممهاة‏ 1ه“ تأخذ شکل 
التوزيع بعين الاعتبار. تمتلك النقطة 8 مسافة إقليدية هي 5/2 ومسافة اهمه اة هي 24ء 
ق حين أن للنقطة ۸ مسافة إقليدية هي 4/2 ومسافة اهم ه41 N41‏ هي 35. m‏ 
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5 مسافة‎ 
Mahalanobis 


الشكل 3.10 مسافة كاطهمداةإة» للنقاط من مركز مجموعة نقاط عددها 2002 ثنائية الأبعاد 


0 طريقة النموذج المختلط للكشف عن التشوه 

يقدم هذا المقطع تقنية كشف عن التشوه تستخدم طريقة النموذج المختلط. في العنقدة (راجع 
المقطع 2.2.9)» تفترض طريقة النموذج المختلط أن البيانات تأتي من خليط من التوزيعات 
الاحتمالية. وبشكل مشابه» تتم من أجل الكشف عن التشوه نمذجة البيانات على أنها خليط 
من توزيعين» واحد من أجل بيانات عادية وواحد من أجل البيانات الشاذة. 

الغاية في كلتا حالتي العنقدة والكشف عن التشوهات هي تقدير وسطاء التوزيعات بهدف 
تكبير (٥2نص×ه")‏ الأرجحية الإجمالية (الاحتمال) للبيانات. ففي العنقدة» تستخدم 
خوارزمية E۷‏ لتقدير وسطاء كل توزيع احتمالي. تستخدم تقنية الكشف عن التشوه الواردة 
هنا طريقة بسيطة. بمكن بشكل مبدئي وضع كافة الكائنات في مجموعة من الكائنات الطبيعية 
ومجموعة الكائنات المشوهة. تقوم بعدها إجرائية تكرارية بتحويل الكائنات من المجموعة العادية 
إلى المجموعة الشاذة طالما أن التكرار يزيد الأرجحية الإجمالية للبيانات. 
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لنفترض أن مجموعة البيانات 2 تحوي كائنات من خليط من توزيعين احتماليين : ۸ هو توزيع 
أغلبية الكائنات (الطبيعية)» و 4 هو توزيع الكائنات الشاذة. يمكن كتابة التوزيع الاحتمالي 
الإجمالى للبيانات بالشكل : 


D(x) = (1 - )M(K) + ^A(K) (3.10( 


حيث × كائن و ۸ عدد بين 0 و 1 يعطي نسبة الشواذ المتوقعة. یتم يتم تقدير التوزيع ٨‏ من 
البيانات» يي حين أن التوزيع 4 یکون اة ما .)uniform(‏ لتكن ,1⁄1 و ,4 مجموعة 
الكائنات الطبيعية والشاذة (على الترتيب) في الزمن ۲. ففي الزمن 0= 1» تكون 2 = 110 و ه4 
خالية. ففي زمن اعتباطي ۲ تكون أرجحية ولوغاريتم (108) الأرجحية لجموعة البيانات الكلية 
2 معطاة بالمعادلتين التالبتين على الترتيب : 


L,(D)= Hoe =| a=" Iu, e0 II2, e0 (4.10) 


x,eD x,eM, XxX, EA, 


LL,(D)=|M,|llog(1-2)+ > JlogPy (x;)+|4,|log0)+ >JlogP, (x;) (5.10) 

x,eM, XxX, EA, 
حیث ,۶ و ,۶ و ۶۸ هي توا بع التوزيع الاحتمالي من أجل 2 و ,1 و 4 على الترتيب.‎ 
بمکن اشتقاق هذه المعادلة من التعريف العام للنموذج اإختاط المعطاة ق المعادلة 6.9 (المقطع‎ 
من الضروري للقيام بذلك وضع الافتراض المبسّط بأن الاحتمال هو 0 من أجل كائن‎ >9 
في حين‎ ٨1 في الحالتين التاليتين : (1) کائن موجود في 4 في حين أنه کائن طبيعي» و (2) کائن في‎ 
.1.10 أنه شاذ. التفاصيل معطاة في الخوارزمية‎ 
ما أن عدد الكائنات الطبيعية كبير مقارنة بعدد الكائنات الشاذة» فإن توزيع الكائنات الطبيعية‎ 
E قد لا یتغیر کثیرا عند نقل کائن ن إلى مجموعة الشواذ.‎ 
ق الأرجحية الإجمالية للكائنات ا ا . علاوة على ذلك فإنه إذا افترضنا‎ 
أن الكائنات الشاذة تخضع للتوزيع المنتظم» فإن كل كائن يتم نقله إلى مجموعة الشواذ يسهم‎ 
بمقدار ثابت ق أرجحية الشواد. وبالتالي فان تيراي مالي ق الأرجحية الإجمالية للبيانات‎ 
)Aد عند نقل کائن ¿ إلى مجموعة الشواذ يساوي د تقريبا احتمال الكائن وفق توزيع منتظم (مشقل ب‎ 
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مطروحا منه احتمال الكائن وفق التوزيع الطبيعي لنقاط البيانات (مُنقل ب -1). وبالتالي فإن 
مجموعة الشواذ ستكون مؤلفة من تلك الكائنات التي لہا احتمال عال نسبيا وفق التوزيخ 
المنتظم مقارنة باحتمالما وفق التوزيع الطبيعي للكائنات. 


الخوارزمية 1.10 الكشف عن الشواذ استناداً إلى الأرححية 


1: Initialization: At time tf = 0, let M, contain all the objects, while A, is empty. 
Let LL, (D) = LL(M,) + LL(A,) be the log likelihood of all the data. 
for each point x that belongs to M, do 
Move x from M, to A, to produce the new data sets A, and Mr. 
Compute the new log likelihood of D, LL,,,(D) = LL(M,,) + LL(A,.1) 
Compute the difference, A= LL,(D) - LLr,1(D) 
if A >c, where c is some threshold then 


AOR BD 


x is classified as an anomaly, i.e., M,ı and A, are unchanged and 
become the current normal and anomaly sets. 

8: end if 

9: end for 


إن الطريقة الواردة في الخوارزمية 1.10 في الحالات التي تحدثنا عنها للتو تُكافئٰ تقريبا تصنيف 
الكاثنات التي لما احتمال منخفض وفق توزيع الكاثنات الطبيعية على نها شاذة. فمثلا» عند 
تطبيق هذه التقنية على النقاط الواردة في الشکل 3.10 سیتم تصنيف النقطتین ۸ و 8 (ونقاط 
أخرى بعيدة عن المتوسط) على أنها شاذة. وعلى أية حال» إذا تغير توزيع الكائنات الطبيعية 
بشكل ملحوظ عند إزالة الشواذ أو كان من الممكن نمذجة توزيع الشواذ بطريقة أكثر تعقيداء 
فإن النتائج التي تعطيها هذه الطريقة ستكون مختلفة عن نتائج التصنيف البسيط للكائنات ذات 
الاحتمال المنخفض على أنها شواذ. كما يمكن أن تعمل هذه الطريقة حتى عندما يكون توزيع 


الكائنات متعدد المنوال (0d21ص٤اuص).‏ 
0 أوحه القوة والضعف 
ا ا ا فو اوا فاا ا و ع اا هات ها 


الذى يجب تطبيقه فإن هذه الاختبارات يمكن أن تكون فعالة جدا. هناك تشكيلة واسعة من 
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الاختبارات الإحصائية الخاصة بالكشف عن الشواذ في حالة سمات وحيدة. تتوفر بضعة 
خیارات من أجل بيانات متعددة المتحولات» ويكون إنجاز هذه الاختبارات د وا من أجل 
بيانات ذات أبعاد عالية. 


0 الكشف عن التشوهات استنادا إلى القرابة 

على الرغم من وجود أشكال مختلفة عديدة من فكرة الكشف عن التشوهات استنادا إلى القرابة 
فإن الفكرة الأساسية بسيطة ومباشرة. يكون كائن ما تشوّها إذا كان بعيدا عن معظم البيانات. إن 
هذه الطريقة أكثر عمومية وأسهل تطبيقا مقارنة بالطرق الإحصائية» باعتبار أن من الأسهل تحديد 
مقياس قرابة ذو دلالة من أجل مجموعة بيانات مقارنة بتحديد توزيعها الاحتمالى. 

من أسهل طرق قياس ما إذا كان كائن بعيدا عن معظم النقاط هي استخدام المسافة إلى ال ) 
جار اقرب .(k-nearest neighbor)‏ یشرح التعريف 4.10 ذلك. أخفض قيمة لدرجة شذوذ 
(0ءء) الكائن هي 0» في حين أن أعلى قيمة هي القيمة الأعظمية الممكنة لتابع المسافة» وهي 
عادة لانهاية). 
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درجة الشذوذ‎ 


الشكل 4.10 درجة الشذوذ استناداً إلى المسافة إلى الجار الأقرب الخامس 
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درجة الشذوذ 


الشكل 5.10 درجة الشذوذ استنادآ إلى المسافة إلى أول جار أقرب. تكون للكائنات الشاذة 


التعريف 4.10 (المسافة إلى ال ۸ حار الأقرب). تعطى درجة شذوذ كائن بأنها المسافة إلى 
أقرب »۸ جار له. 


يعرض الشكل 4.10 مجموعة نقاط ثنائية الأبعاد. يشير تظليل كل نقطة إلى درجات الشذوذ لہا 
باستخدام القيمة 5 = ). لاحظ أنه تم بشكل صحيح إسناد درجة شذوذ مرتفعة إلى نقطة شاذة °. 
کن أن نكر درجات الوذ اة بقکل کر لغ فاد کات ۾ صخي (1 من فان 
وجود عدد صغير من الكائنات الشاذة المجاورة سيؤدي إلى الحصول على درجات شذوذ منخفضة. 
يعرض الشكل 5.10 على سبيل المثال مجموعة من النقاط ثنائية الأبعاد كانت فيها نقطة أخرى قريبة 
من .٥‏ يعكس التظليل درجات الشذوذ باستخدام قيمة 1=. لاحظ أن لكل من ° وجارها درجة 
شذوذ منخفضة. إذا كانت ۸ كبيرة جداء» وعندها من الممكن أن تصبح كافة الكائنات في عنقود فيه 
كائنات أقل من × شواذا. يبين الشكل 6.10 على سبيل المثال مجموعة بيانات ثنائية الأبعاد فيها 
عنقود طبيعي حجمه 5 بالإضافة إلى عنقود أكبر حجمه 30. فمن أجل 5 = ۸ تكون درجات 
الشذوذ لکافة النقاط في العنقود TEE‏ ولكي نجعل المخطط أكثر قوة في اختيار » 
يمكننا تعديل التعريف 4.10 بحيث يستخدم المتوسط الحسابي للمسافات إلى أقرب » جار أقرب. 
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الشكل 6.10 


الشكل 7.10 
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درجحة الشذوذ 


درجة الشذوذ استناداً إلى المسافة إلى الجار الأقرب الخامس. عناقيد ذات كثافات 
ã E‏ 
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0 وجه القوة والضعف 

إن خططات الكشف عن الشواذ استنادا إلى المسافة المشروحة أعلاه وغيرها من المخططات 
ذات الصلة تكون بسيطة. تستغرق الطرق التي تستند إلى القرابة عادة زمنا قدره (0)”7. يمكن 
أن يكون هذا مكلفا جدا في حالة مجموعات بيانات ضخمة» على الرغم من أنه يمكن 
استخدام خوارزميات مخصصة لتحسين الأداء في حالة البيانات منخفضة الأبعاد. كما أن 
الطريقة حساسة لاختيار الوسطاء. علاوة على أنها لا يمكنها معالجحة مجموعات بيانات فيها 
مناطق ذات كثافات مختلفة جداأ لأنها تستخدم حدود عتبة شاملة لا يمكنها أن تأخذ بعين 
الاعتبار تغيرات كثافة كهذه. 

و lG‏ ة الأبعاد الواردة في الشكل 7.10. يعرض هذا 
الشكل عنقودا من النقاط مفككأ نوعاً ماء وعنقودا آخر من النقاط كثيف» ونقطتان ° و © 
تان خد خن هن الوذ ا فا در وة رل الفا وا لوف 410م 
أجل 5 = « يؤدي إلى تعريف صحيح للنقطة ٤‏ على أنها شاذة» ولكنه يعطي درجة شذوذ 
منخفضة من أجل النقطة 7. وفي الواقع فإن درجة الشذوذ من أجل 2 أقل بكثير من الكثير من 
النقاط التي هي جزء من العنقود المغكك. 


0 الكشف عن الشذوذ استناداً إلى الكثافة 

إن الشواذ من وجهة النظر التي تستند إلى الكثافة هي الكائنات التي تقع في مناطق منخفضة 
الكثافة. 

التعريف 5.10 (الكائن الشاذ استناداً إلى الكثافة). إن درجة شذوذ كائن هي مقلوب 
الكثافة حول الكائن. 

يرتبط الكشف عن الشواذ استناداً إلى الكثافة بقوة بالكشف عن الشواذ استنادا إلى القرابة 
باعتبار أن الكثافة عرف عادة من خلال القرابة. إحدى الطرق الشائعة هى تحديد الكثافة على 
أنها مقلوب المتوسط الحسابى للمسافة إلى ال ۸ جار الأقرب. فإذا eT‏ المسافة صغيرة› 
فإن الكثافة تكون عالية› OE NE E‏ 
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التعريف 6.10 (مقلوب المسافة). 


=1 
E distance(x, ¥ ) 


6.10 
|N(x;K)| 0 


density(x,k) = 


حيث (۸ ,)۸ هو المجموعة التي تحوي ال » جار الأقرب ل ×» و |( ,× |۸١)‏ هو حجم تلك 
المجموعة» و وهو جار أقرب. 


هناك تعريف آخر للكثافة تستخدمه خوارزمية العنقدة .085٨4١‏ راجع المقطع 4.8. 

التعريف 7.10 (عدٌ النقاط ضمن نصف قطر معطى). إن الكثافة حول كائن تساوى عدد 
الكائنات التي تقع ضمن مسافة حددة 4 من الكائن. 

CES ASU SRE AEE BE AEE 
كثافة منخفضة وبالتالى درجة شذوذ عالية. أما إذا كانت 4 مرتفعة فقد تكون للكثير من الشواذ‎ 
كثافات (ودرجة شذوذ) تماثل النقاط الطبيعية.‎ 


إن للكشف عن الشواذ باستخدام أي من تعريفي الكثافة حاسن ومساوئ مشابهة لتلك 
الخاصة بمخططات الكشف عن الشواذ استنادا إلى القرابة التي تحدثنا عنها في المقطع 3.10. 
وبشكل خاص فإنه لا يمكنها تحديد الكائنات الشاذة بشكل صحيح عندما تحوي البيانات 
مناطق ذات كثافات مختلفة. (انظر الشكل 7.10). ولكي يتم تحديد الكائنات الشاذة قي 
مجموعات بيانات كهذه بشكل صحيح سنحتاج إلى وضع فكرة عامة عن الكثافة نسبة إلى 
جوار الكائن. النقطة 2 في الشكل 7.10 على سبيل المثال لا كثافة مطلقة (وفقا للتعريفين 6.10 
و 7.10) أعلى من النقطة ۸» ولكن كثافتها أقل نسبة إلى الجيران الأقرب. 

توجد طرق كثيرة لتحديد الكثافة النسبية لكائن. إحدى هذه الطرق هى التى تستخدمها 
خوارزمية العنقدة استنادا إلى الكثافة 6١١‏ والتي شرحتاها في المقطع 8.4.9 هناك طريقة أخرى 
وهي حساب الكثافة النسبية كنسبة (0نا٠إ)‏ من كثافة نقطة × والمتوسط الحسابي لكثافة جيرانها 
اقرب كاي 


density(x,K) 


)7.10( 
density(y,k)/|N (x, k)| 


average relative density(x, kK) = 3 
yeN(x,k) 
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0 الكشف عن الشواذ باستخدام الكثافة النسبية 

سنشرح في هذا المقطع تقنية تستند ند إلى فكرة الكثافة النسبية. هذه التقنية (وهي نسخة مبسطة 
عن تقنية معامل الشذوذ المحلي 10۴ ۴4٥۲0۲(‏ ها0 1ه٥ها)‏ » المشروحة في الخوارزمية 2.10. 
سنتحدث بالتفصيل عن هذه الخوارزمية فيما يلي » ولکنها ا ی ي نقوم 
بحساب درجة شذوذ كل كائن من أجل عدد محدد من الحيران () بأن غعسب أولا كثافة كائن 
( ,)رانء استنادا إلى جيرانه الأقرب. يتم بعدها حساب المتوسط الحسابي لكثافة جيران 
نقطة واستخدامه لحساب المتوسط الحسابي للكثافة النسبية للنقطة كما أشرنا في المعادلة 7.10. 
يقدم هذا المقدار الكمي دلالة على ما إذا كان × موجودا في منطقة أكثر كثافة أو أكثر تبعثرا 
للجوار مقارنة بجيرانه ويتم اعتباره درجة شذوذ ×. 


الخوارزمية 2.10 خوارزمية حساب درجحة شذوذ استنادآً إلى الكثافة النسبية 


{Kk is the number of nearest neighbors} 
for all objects x do 
Determine N(x, K), the k- nearest neighbors of x. 


ب پم ب چ 


Determine density(x, K), the density of x using its nearest neighbors, i.e., the 
objects in N(x, RK). 

end for 

for all objects x do 
Set the outlier score(x, K) = average relative density(x, Kk) from Equation 10.7. 


۾ ب م 


end for 


المثال 2.10 (الكشف عن الكائنات الشاذة استنادا إلى الكثافة النسبية). قمنا سابقاً 
بتوضیح أداء طريقة الكشف عن الكائنات الشاذة استنادا إلى الكثافة النسبية باستخدام مجموعة 
بيانات المثال الواردة في الشكل 7.10. وبالتالي فإن 10 = ». يعرض الشكل 8.10 درجات 
الشذوذ من أجل هذه النقاط. تم تحديد تظليل كل نقطة وفقاً لدرجة شذوذهاء بمعنى أن النقاط 
التي لہا درجة أعلى تكون أكثر دكنة. قمنا بتسمية النقاط ۸ و 8 و © التي لما أعلى درجات 
شذڏوذ ا هذه القيم. إن هذه النقاط بالترتيب هي النقطة الشاذة الأكثر تطرفاء والنقطة 
الأكثر ظا بالنسبة لجموعة النقاط المكتنزة 0ءةمصه٠)»‏ والنقطة الأكثر رفا في مجموعة 
النقاط المغككة. _ 
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الشكل 8.10 درجات الشذوذ استناداً إلى الكثافة النسبية (10۴ا) من أجل النقاط ثنائية الأبعاد 
الواردة في الشكل 7.10 


0 أاأوجه القوة والضحف 

يُعطي الكشف عن الشواذ استناداً إلى الكثافة النسبية مقياساً كمي لدرجة كون كائن شاذا 
حال الطرق التي تستند إلى المسافة فإن لمذه الطرق تعقيدا زمنيا قدره (0)77 (حيث ” هو عدد 
الكائنات)» على الرغم من أنه يكن تخفيض هذا التعقيد إلى (” ع٥1‏ 0)7 من أجل بيانات 
اا ی وات عاف من الکو ها أف كرن اخار ال ضا 
على الرغم من أن خوارزمية 10۴ المعيارية تعالج هذه المشكلة بالبحث في تشكيلة من قيم ۸ ثم 
أخذ درجات الشذوذ القصوى. ولكن على أية حال ما زال من الضروري اختيار الحدين 
الأعلى والأسفل لہذه القيم. 


0 تقنيات تستند إلى العنقدة 


يتم من خلال تحليل العنقدة إيجاد كائنات مرتبطة ببعضها بقوة» في حين أن يتم في الكشف عن 
التشوهات إججاد الكائنات التى لا ترتبط بقوة بالكائنات الأخرى. لن يدهشك على هذا 
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الأساس أن أنه يكن استخدام العنقدة للكشف عن الكائنات الشاذة. سنتحدث في هذا 
المقطع عن عدة تقنيات كهذه. 

يتم في إحدى طرق الكشف عن الشواذ باستخدام العنقدة استبعاد العناقيد الصغيرة التي تكون 
بعيدة جنا عن العناقيد الأخرى. يمكن استخدام هذه الطريقة مع أية تقنية عنقدة» ولكنها 
تتطلب حدود عتبة من أجل الحجم الأصغري للعنقود والمسافة بين عنقود صغير وبين العناقيد 
الأخرى. يتم غالبا تبسيط العملية باستبعاد كافة العناقيد التي تكون أصغر من حجم أصغري. 
إن هذا المخطط حساس جدا لعدد العناقيد المختار. كما أن من الصعب ربط درجة شذوذ 
بالكائنات باستخدام هذا المخطط. لاحظ أن اعتبار مجموعات من الكائنات شاذة يوسع 
(extend)‏ فكرة الشواذ المأخوذة من كائنات منفصلة إلى مجموعات من الكائنات» ولكنه لا 
يغير أيا من الأساسيات. 

هناك E‏ الكاثنات ثم تحديد درجة انتماء كائن إلى 
آي عنقود. فمن أجل عنقدة تستند إلى نموذج الأصل iie « (prototype-based)‏ استخدام بد 
كائن عن مركز عنقوده لقياس درجة اما کائن إلى قود وکل آكر عمومة: ومن أجل 
تقنيات عنقدة تستند إلى تابح هدف (موضوعي) (ء1۷اءءزطه)» يمكننا استخدام التابع المدف 
لتحديد مدى جودة انتماء كائن إلى أي عنقود. وبشکل خاص› إذا کان ينتج عن حذف كائن 
تحسّن كبير في قيمة التابع المدف» فإننا سنقوم بتصنيف الكائن على أنه كائن شاذ. للتوضيح 
A O yS‏ ای ن چن 
a‏ . وبشكل مختصر نقول أن العنقدة ت: شن ودا س 
البيانات والتشوهات التی تحرف ذلك النموذج. يعبر التعريف 8.10 عن هذه الفكرة. 

التعريف 8.10 (الكائن الشاذ استناداً إلى العنقدة). يكون كائن شاذا استنادا إلى العنقدة 
إذا كان الكائن لا ينتمي بقوة إلى أي عنقود. 

يعتبر هذا التعريف عند استخدامه بواسطة مخططات العنقدة التي لہا تابح هدف (موضوعي) 
حالة خاصة من الكشف عن التشوهات استنادا إلى النموذج. وعلى الرغم من أن التعريف 
0 أكثر ملاءمة من أجل عخططات تستند إلى غوذج الأصل أو المخططات التي لہا تابع 
هدف» فإانه يشمل اا طرق العنقدة استنادا إلى الكثافة والصلة uiundlة (connectivity)‏ 
لكشت عن الشواد. وکل اص فإنه من أجل العنقدة استناداً إلى الكثافة يكون كائن ما لا 
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ينتمي بقوة إلى أي عنقود إذا كانت كثافته منخفضة ا في حين آنه في العنقدة ااا 91 
الصلة البينية يكون كائن ما لا ينتمي بقوة إلى أي عنقود إذا لم يكن متصلا بقوة. 

سنتحدث فيما يلي عن مسائل تجب معالجتها من قبل أي تقنية كشف عن الشواذ استناداً إلى 
العنقدة. سنركز في حديفنا على تقنيات العنقدة استنادا إلى نغوذج الأصل »› مثل كصةء-K.‏ 


0 تقييم مدى انتماء ڪائن إلى عنقود 

هناك في العناقيد التي تستند إلى نموذج الأصل عدة طرق لتقييم مدى انتماء كائن إلى عنقود. 
إحدى هذه الطرق هي قياس البعد بين الكائن وبين نموذج الأصل للعنقود وأخذ هذه المسافة 
كدرجة شذوذ (١۲٥ءء‏ إمنااuه)‏ الكائن. فإذا كان للعناقيد كثافات مختلفة فيمكننا وضع درجة 
شذوذ تقيس البعد النسبي لكائن عن نموذج الأصل للعنقود مقارنة بأبعاد الكائنات الأخرى في 
العنقود. هناك احتمال آخر (إذا كان يمكن نمذجة العناقيد من خلال توزيعات غوصية) هو 
استخدام مسافة زا0 Mah alan‏ . 

أما بالنسبة لتقنيات العنقدة التي لہا تابع هدف فيمكننا إسناد درجة شذوذ إلى كائن تعكس 
التحسن في التابع المدف عند حذف ذلك الكائن. ييكن على أية حال أن يكون تحديد درجة 
كون نقطة ما نقطة شاذة استنادا إلى التابع المدف REE‏ 
فإننا نفضتّل غالبا الطرق التي تستند إلى المسافة الواردة في الفقرة السابقة. 

المنال 3.10 (منال يستند إلى العنغدة). يستند هذا الخال إلى مجموعة النقاط الواردة في 
الشكل 7.10. تستخدم العنقدة استنادا إلى نموذج الأصل الخوارزمية »K-٠٠۵١5‏ ويتم حساب 
درجة الشذوذ لنقطة بطريقتين : (1) من خلال بعد النقطة عن أقرب مركز ثقل (لإه٣ام»)‏ 
إليهاء و (2) من خلال البعد النسبى لنقطة عن أقرب مركز ثقل إليهاء حيث أن البعد (المسافة) 
النسبي هو نسبة بعد النقطة عن 2 القل إلى قيمة المسافة الوسط (ءء«هاكزل «لهه) لكافة 
النقاط في العنقود عن مركز الثقل. تستخدم الطريقة الأخيرة للتكيف بحسب الفروقات الكبيرة 
في الكثافة بين العناقيد الكثيفة والمفككة. 

تظهر درجات الشذوذ الناتجة في الشكلين 9.10 و 10.10. وكما في السابق فإننا نشير إلى درجة الشذوذ 
(تم قياسها في هذه الحالة باستخدام البعد أو البعد النسبي) من خلال التظليل. استخدمنا عنقودين في 
كل حالة. تعاني الطريقة التي تستند إلى المسافة فقط من مشكلات في حالة كون العناقيد مختلفة 
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الكثافة» فمغلا 2 لا تعتبر شذوذا. أما بالنسبة للطريقة التى تستند إلى الأبعاد النسبية » فإن النقاط التى 
تم اعتبارها شاذة باستخدام 10۴ (أي ۸ و ٥‏ و 2) قد تبين أنها شاذة هنا أيضا. 
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الشكل 10.10 البعد النسبي للنقاط عن أقرب مركز ثقل 
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0 تأثير الشواذ على العنقدة الأولية 

إذا تم الكشف عن الشواذ من خلال العنقدة فإن هناك سؤالاً حول ما إذا كانت التتائج مقبولة 
باعتبار أن الشواذ تؤثر على العنقدة. يمكن استخدام الطريقة التالية للتغلب على هذه المشكلة : 
تتم عنقدة الكائنات» ثم إزالة الكائنات الشاذة» وبعدها تتم عنقدة الكائنات مرة أخرى. على 
الرغم من أنه لا توجد ضمانات بأن هذه الطريقة ستعطي نتائج أمثلية» فإن من السهل 
استخدامها. هناك طريقة ة أكثر تعقيدا وهي أن تكون هناك مجموعة خاصة من أجل الكائنات 
التي لا تتلاءم اا بشكل جيد في أي عنقود. تمثل هذه المجموعة الكائنات الشاذة الحتملة. 
ومع تقدم عملية العنقدة فإن العناقيد تتغير. 0 
أي عنقود إلى مجموعة الكائنات الشاذة المحتملة» في حين يتم فحص الكائنات الموجودة حاليا 
في المجموعة لنرى ما إذا كانت تنتمي الآن بقوة إلى عنقود ويمكن إزالتها من مجموعة الكائنات 
الشاذة الحتملة. يتم تصنيف الكائنات التي تبقى في المجموعة في نهاية العنقدة على أنها شاذة. 
وهنا أيضاً لا توجد ضمانات بأن نحصل على حل أمثلي أو حتى ضمانات بأن هذه الطريقة 
ستعمل بشكل أفضل من الطريقة اا او ا فمثلاء قد يبدو عنقود بجوي نقاط 


تشویش (۴ء01ه) مشابها لعنقود فعلي بدون شواذ. يمکن أن تكون هذه المشكلة جدية خاصة 
إِذا کان یتم حساب درجة الشذوذ باستخدام المسافة (البعد) النسبية. 


0 عدد العناقيد المستخدمة 

لا تحدد تقنيات عنقدة مثل ك١٥٠٠-K‏ بشكل أوتوماتيكي عدد العناقيد. e a‏ 
استخدامح العنقدة في الكشف عن الشواذء باعتبار أن تحديد کون کائن ما شاذا ام لا يعتمد 
على عدد العناقيد. فمثلاء ت ر و ا ولکنها قد 
تکون ححتواة كجزء من عنقود أكبر إذا وجدنا بضعة عناقيد كبيرة ا 


الممكن اعتبار النقاط العشر شاذة» حتی بالرغم من أنها کان مکل غود االو 2 
تحديد عدد أكبر للعناقيد. 


EE LAE E A ERS E eS 
a Ca a Ca التحليل من أجل عدد مختلف من العناقيد.‎ 
الفكرة هنا هي أن (1) العناقيد الصغيرة قیل إلی ن تکون اکثر تماسکاء و (2) إذا کان کائن شاذا‎ 
حتى عندما يكون هناك عدد كبير من العناقيد الصغيرةء فاتاغان الأغلت بكرن شاد فلا‎ 
إلا أن المشكلة هي أن مجموعات الشواذ تلك قد تشكل عناقيد صغيرة وبالتالي لن يتم كشفها.‎ 
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0 أوجه القوة والضحف 

تمتلك بعض تقنيات العنقدة (مثل كصوعص-K)‏ ا ا linear)‏ أو غير خطي من حيث 
الزمن أو المساحة» وبالتالي من الممكن أن تكون تقنيات الكشف عن الشواذ استناداً إلى 
خوارزمیات کهذه عالية الفعالية. كما أن تحديد ST‏ لتحديد الشواذ» وبذلك 
فإن من الممكن عادة إيجاد العناقيد والشواذ معا في نفس الوقت. أما من الناحية السلبية فإن 
مجموعة الشواذ الناتجة ودرجات شذوذها يمكن أن تعتمد بشکل کبیر على عدد العناقید 
المستخدم بالإضافة إلى وجود شواذ في البيانات. فمثلا» يمكن أن حرف وجود الشواذ العناقيد 
الناتجة عن خوارزميات تستند إلى نموذج الأصل. تتأثر جودة الكائنات الشاذة الناتجة عن 
العنقدة بجودة العناقيد التي تعطيها الخوارزمية. وكما قلنا في الفصلين 8 و 9 فإن كل خوارزمية 
عنقدة تكون مناسبة فقط من أجل نوع معين من البيانات » وبالتالي فإن من الضروري اختيار 
E‏ 


0 التمارین 


1. قارن بين التقنيات المختلفة للكشف عن التشوهات الواردة في المقطع 2.1.10. وبشكل 
خاص» حاول تحديد الظروف التي تكون فيها تعريفات الكائنات المشوهة المستخدمة في 
التقنيات المختلفة غير متكافئة أو الحالات التي يكون فيها تعريف ذا معنى فيما يكون 
تعريف آخر لا معنى له. لا تنس أن تأخذ بعين الاعتبار الأنواع المختلفة للبيانات. 


2. يمكن استخدام تحليل الاقتران لإيجاد التشوهات كما يلي. يتم إيجاد أغاط اقتران قوية 
تشتمل على عدد أصغري ما من الكائنات. الكائنات المشوهة هي تلك الكائنات التي لا 
تنتمي إلى أي نط كهذا. لفهم ذلك بشكل أفضل»› A E‏ 
(iueاhyperc)‏ الذي تحدثنا عنه ق المقطع 6 مناسب بشكل خاص لہذه الطريقة. 
وبشکل خاص » إذا کان لدينا مستوى ١٥ء‏ ل۴« هء-1 يحدده المستخدم »› فسیتم إجاد آنغاط 
عصبة متشعبة Îعظ¦ınة .(maximal hyperclique pattern)‏ یتم تصنيف كافة الكائنات التي 
لا تظهر في أنغاط العصبة المتشعبة الأعظمية على أنها شواذ. 

3 اشح التعقيد الزمني امحتمل لطرق الكشف عن التشوهات التي تستند إلى الطرق التالية : 
استنادا إلى النموذج (model- a‏ باستخدام العنقدة› اتتادا إلى القرابة» والكثافة. لا 
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نحتاج إلى معرفة بتقنيات محددة. ركز نوعاً ما على المتطلبات الحسابية الأساسية لكل 
طريقة » مثل الزمن المطلوب لحساب كثافة كل كائن. 

4. يعتبر اختبار ا5٠6‏ (المشروح من خلال الخوارزمية 3.10) إجرائية اکر دا ا الناحية 
الإحصائية للكشف عن الشواذ مقارنة بالتعريف 3.10. هذه الإجرائية تكرارية وتأخذ أيضا 
بعين الاعتبار حقيقة أن قيمة < (١إ0ءء-z)‏ لكل قيمة تستند إلى متوسط والانحراف المعياري 
للعينة من أجل مجموعة القيم الحالية. يتم استبعاد القيمة التي لہا أعلى قيمة 7 إذا كانت 
قيمة < لما أكبر من ءع» وهي القيمة الحدية (1ءانءه) للاختبار من أجل تحديد كائن شاذ 
عند مستوى أهمية 1٥۷1(‏ ٥٥«هءاگذصعاء)‏ هو ». يتم تكرار هذه العملية إلى أن لا تكون 
هناك کائنات يتم استبعادها. لاحظ أنه يتم تحديث قيم متوسط والانحراف المعياري للعينة 
وع عند کل تکرار. 


الخوارزمية 3.10 طريقة ططناا6 لاستبعاد الكائنات الشاذة 


1: Input the values and 
{m is number of values, a is a parameter, and f. is a value chosen so that 


a= prob(x > te for a t distribution with m-2 degrees of freedom. } 


2: repeat 
3: Compute the sample mean ( x ) and standard deviation (s,). 
4: Compute a value g. so that prob(|z| > g£c) = a 

m-1 | 17 


(In terms of f. and mM, gc = 3° 
lm m-2 +t 


Compute the z-score of each value, i.e., z=(x—x)/sy 
Let g = max|z|, i.e., find the z-score of largest magnitude and call it g. 
if g > g. then 
Eliminate the value corresponding to £. 
m € m-1 
10: end if 


9 O O 


11: until No objects eliminated. 
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m—1 12 


im m-2 +12 


تقترب ‏ من اللانهاية ؟ استخدم مستوى أهمية 0.05. 


(8) ماهو الحد الأقصى للقيمة الملستخدمة في اختبار اطنإ6 عندما 


(0) اشرح (بالكلمات) معنى النتيجة السابقة 
5. تعطى الكثافة الاحتمالية لنقطة × وفقا لتوزيع طبيعي متعدد المتحولات (المتغيرات) له 
متوسط »/ ومصفوفة تباين مشترك = من خلال المعادلة التالية : 


_ 02 x) 


2 (8.10( 


€ 
2r)" | 


prob(x) = 


فاذا استخدمنا متوسط العينة × ومصفوفة التباين المشترك S‏ كتقديرين للمتوسط ١ر‏ 
ومصفوفة التباين المشترك = (على الترتيب)»› فبين أن (8)طم 1٥‏ يساوي مسافة 
Mahal‏ بين نقطة بيانات × ومتوسط العينة × اقا إليه ثابت لا يعتمد على ×. 
6. إذا كان لدينا عخطط ءمهءص-K‏ (المسافة النسبية) للكشف عن الكائنات الشاذة المشروح ق 
المقطع 5.10 والشكل المرافق (الشكل 10.10). 
(4) إن للنقاط الموجودة ق أسفل العنقود الكثيف الذي يظهر في الشكل 10.10 درجات 
شذوذ غالية نوعا ما مقارئة بتلك النقاط الموجودة في أعلى العنقود الكثيف .lذا؟‏ 


(b)‏ لنفترض أننا اخترنا عدد العناقيد بحيث يكون أكبر» کأن یکون 10 مثلا . هل ستبقی 
التقنية المقترحة فعالة قي إجاد الكائنات الشاذة الأكثر تطرفا الموجودة غ 
الشكل؟ لمء ولم لا؟ 

(c)‏ يدي استخدام المسافة (البعد) النسبية إلى التكبّف بحسب فروقات الكثافة. أعط 

الا شن اله تقودنا فيها هذه الطريقة إلى النتيجة الخطاً. 
7. إذا کان احتمال أن يتم تصنيف كائن طبيعي على أنه تشوه هو 0.01 واحتمال أن يتم تصنيف 
ئن مشوه على أنه تشوّه هو ۰0.99 فما هى نسبة الإنذار الخاطيئ (٠إ‏ ٣اه‏ مءاه؟) ونسبة 
الکشف ۲٠۲۵(‏ «i0ءعءل)‏ إذا كان 99% من الكائنات طبيعية ؟ (استخدم التعريف الوارد أدناه). 
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number of anomalies detected 
detection rate = : )9.10( 
total number of anomalies 


number of false anomalies 
false alarm rate = : : : )10.10( 
number of objects classified as anomalies 


. بفرض أن لدينا مجموعة من النقاط» حيث أن معظم هذه النقاط موجود في مناطق 


منخفضة الكثافة› ولكن هناك بضعة نقاط موجودة في مناطق ذات كثافة عالية. فاذا قمنا 
بتعريف الكائن المشوه على أنه نقطة في منطقة منخفضة الكثافة فسيتم تصنيف معظم 


تقاط على ا ا هل تعتبر هنا استخداما مناسباً لتعريف التشوه الذي يستند إلى 


لتكن لدينا مجموعة نقاط تخضع للتوزيع المنتظم ضمن الجال [1 ,0]. هل تعتبر أن الفكرة 


العامة القائلة بأن الكائن الشاذ هو قيمة لا تتم مشاهدتها بشكل متكرر معبرة من أجل هذه 
البيانات؟ 


. قام محلل بتطبيق خوارزمية كشف عن التشوهات على مجموعة بيانات ووجد مجموعة من 


التشوهات. إلا أن فضوله قد دفعه لتطبيق خوارزمية الكشف عن التشوهات على جموعة 

التشوهات. 

(a)‏ ناقش سلوك كل واحدة من تقنيات الكشف عن التشوهات المشروحة قي هذا 
الفصل. (وإذا كان ذلك e‏ قم بتجربة هذا الأمر على مجموعات بیانات 
وخوارزميات فعلية). 

(ا) ما السلوك الذي تعتقد أن خوارزمية الكشف عن التشوهات ستسلكه عند تطبيقها 
على مجموعة من الكائنات المشوهة؟ 


